Deep learning has been widely used for protein engineering. However, it is limited by the lack of sufficient experimental data to train an accurate model for predicting the functional fitness of high-order mutants. Here, we develop SESNet, a supervised deep-learning model to predict the fitness for protein mutants by leveraging both sequence and structure information, and exploiting attention mechanism. Our model integrates local evolutionary context from homologous sequences, the global evolutionary context encoding rich semantic from the universal protein sequence space and the structure information accounting for the microenvironment around each residue in a protein. We show that SESNet outperforms state-of-the-art models for predicting the sequence-function relationship on 26 deep mutational scanning datasets. More importantly, we propose a data augmentation strategy by leveraging the data from unsupervised models to pre-train our model. After that, our model can achieve strikingly high accuracy in prediction of the fitness of protein mutants, especially for the higher order variants (> 4 mutation sites), when finetuned by using only a small number of experimental mutation data (<50). The strategy proposed is of great practical value as the required experimental effort, i.e., producing a few tens of experimental mutation data on a given protein, is generally affordable by an ordinary biochemical group and can be applied on almost any protein.
translated by 谷歌翻译
Mathematical reasoning is a fundamental aspect of human intelligence and is applicable in various fields, including science, engineering, finance, and everyday life. The development of artificial intelligence (AI) systems capable of solving math problems and proving theorems has garnered significant interest in the fields of machine learning and natural language processing. For example, mathematics serves as a testbed for aspects of reasoning that are challenging for powerful deep learning models, driving new algorithmic and modeling advances. On the other hand, recent advances in large-scale neural language models have opened up new benchmarks and opportunities to use deep learning for mathematical reasoning. In this survey paper, we review the key tasks, datasets, and methods at the intersection of mathematical reasoning and deep learning over the past decade. We also evaluate existing benchmarks and methods, and discuss future research directions in this domain.
translated by 谷歌翻译
Geometry problem solving is a well-recognized testbed for evaluating the high-level multi-modal reasoning capability of deep models. In most existing works, two main geometry problems: calculation and proving, are usually treated as two specific tasks, hindering a deep model to unify its reasoning capability on multiple math tasks. However, in essence, these two tasks have similar problem representations and overlapped math knowledge which can improve the understanding and reasoning ability of a deep model on both two tasks. Therefore, we construct a large-scale Unified Geometry problem benchmark, UniGeo, which contains 4,998 calculation problems and 9,543 proving problems. Each proving problem is annotated with a multi-step proof with reasons and mathematical expressions. The proof can be easily reformulated as a proving sequence that shares the same formats with the annotated program sequence for calculation problems. Naturally, we also present a unified multi-task Geometric Transformer framework, Geoformer, to tackle calculation and proving problems simultaneously in the form of sequence generation, which finally shows the reasoning ability can be improved on both two tasks by unifying formulation. Furthermore, we propose a Mathematical Expression Pretraining (MEP) method that aims to predict the mathematical expressions in the problem solution, thus improving the Geoformer model. Experiments on the UniGeo demonstrate that our proposed Geoformer obtains state-of-the-art performance by outperforming task-specific model NGS with over 5.6% and 3.2% accuracies on calculation and proving problems, respectively.
translated by 谷歌翻译
数学推理是人类智力的核心能力,在抽象思维和逻辑推理中对机器提出了独特的挑战。最近的大型预训练的语言模型(例如GPT-3)在以文本形式(例如数学单词问题(MWP))编写的数学推理任务上取得了显着的进步。但是,未知模型是否可以处理更复杂的问题,这些问题涉及数学推理,例如表格数据。为了填补空白,我们提出了表格数学单词问题(TABMWP),这是一个包含38,431个开放域级等级问题的新数据集,这些问题需要在文本和表格数据上进行数学推理。 TABMWP中的每个问题都与表格上下文对齐,该上下文作为图像,半结构化文本和结构化表。有两种类型的问题:自由文本和多选择,每个问题都用金解决方案注释以揭示多步推理过程。我们在TABMWP上评估了不同的预训练模型,包括在几次设置中的GPT-3模型。正如先前的研究所表明的那样,由于很少有GPT-3依赖于内在的示例的选择,因此其性能是不稳定的,并且可能会降解为几乎机会。处理TABMWP等复杂问题时,不稳定的问题更为严重。为了减轻这种情况,我们进一步提出了一种新颖的方法,即PresspG,该方法利用策略梯度学习从少量培训数据中选择中文示例,然后为测试示例构造相应的提示。实验结果表明,与随机选择相比,我们的方法在准确性度量上优于最佳基线,并显着降低了预测方差,这验证了其在选择性上下文示例中的有效性。
translated by 谷歌翻译
在回答问题时,人类会利用跨不同模式可用的信息来综合一致,完整的思想链(COT)。在深度学习模型(例如大规模语言模型)的情况下,这个过程通常是黑匣子。最近,科学问题基准已用于诊断AI系统的多跳推理能力和解释性。但是,现有数据集无法为答案提供注释,或仅限于仅文本模式,小尺度和有限的域多样性。为此,我们介绍了科学问题答案(SQA),这是一个新的基准,由〜21k的多模式多种选择问题组成,其中包含各种科学主题和答案的注释,并提供相应的讲座和解释。我们进一步设计语言模型,以学习将讲座和解释作为思想链(COT),以模仿回答SQA问题时的多跳上推理过程。 SQA在语言模型中展示了COT的实用性,因为COT将问题的答案绩效提高了1.20%的GPT-3和3.99%的unifiedqa。我们还探索了模型的上限,以通过喂食输入中的那些来利用解释;我们观察到它将GPT-3的少量性能提高了18.96%。我们的分析进一步表明,与人类类似的语言模型受益于解释,从较少的数据中学习并仅使用40%的数据实现相同的性能。
translated by 谷歌翻译
近年来,在自学学习(SSL)方面取得了重大成功,这有助于各种下游任务。但是,攻击者可能会窃取此类SSL模型并将其商业化以获利,这对于保护其知识产权(IP)至关重要。大多数现有的IP保护解决方案都是为监督学习模型而设计的,不能直接使用,因为它们要求模型的下游任务和目标标签在水印嵌入过程中已知并获得,这在SSL的域中并非总是可以的。为了解决此类问题,尤其是在水印嵌入过程中下游任务多样化且未知时,我们提出了一种新型的黑盒水印解决方案,名为SSL-WM,以保护SSL模型的所有权。 SSL-WM将水印编码器的水印输入映射到不变的表示空间中,该空间会导致任何下游分类器产生预期的行为,从而允许检测到嵌入式水印。我们使用不同的SSL模型(包括基于对比度和基于生成的生成型)来评估许多任务,例如计算机视觉(CV)和自然语言处理(NLP)等许多任务。实验结果表明,SSL-WM可以有效地验证各种下游任务中被盗SSL模型的所有权。此外,SSL-WM对模型进行微调和修剪攻击非常强大。最后,SSL-WM还可以从评估的水印检测方法中逃避检测,从而证明了其在保护SSL模型IP时的有希望的应用。
translated by 谷歌翻译
人类运动建模对于许多现代图形应用非常重要,这些应用通常需要专业技能。为了消除外行的技能障碍,最近的运动生成方法可以直接产生以自然语言为条件的人类动作。但是,通过各种文本输入,实现多样化和细粒度的运动产生,仍然具有挑战性。为了解决这个问题,我们提出了MotionDiffuse,这是第一个基于基于文本模型的基于文本驱动的运动生成框架,该框架证明了现有方法的几种期望属性。 1)概率映射。 MotionDiffuse不是确定性的语言映射,而是通过一系列注入变化的步骤生成动作。 2)现实的综合。 MotionDiffuse在建模复杂的数据分布和生成生动的运动序列方面表现出色。 3)多级操作。 Motion-Diffuse响应有关身体部位的细粒度指示,以及随时间变化的文本提示,任意长度运动合成。我们的实验表明,Motion-Diffuse通过说服文本驱动运动产生和动作条件运动的运动来优于现有的SOTA方法。定性分析进一步证明了MotionDiffuse对全面运动产生的可控性。主页:https://mingyuan-zhang.github.io/projects/motiondiffuse.html
translated by 谷歌翻译
虚拟现实(VR)技术通常用于娱乐应用中;但是,它也已在我们生活的更严重方面(例如安全)中部署在实际应用中。为了支持在危险行业工作的人们,VR可以确保操作员操纵标准化的任务并协作以应对潜在的风险。令人惊讶的是,很少的研究重点是人们如何在VR环境中进行协作。很少有研究注意运营商在其协作任务中的认知负荷。一旦任务要求变得复杂,许多研究人员将专注于优化相互作用界面的设计,以减少操作员的认知负载。这种方法可能是有价值的。但是,它实际上可以使操作员承受更重要的认知负担,并可能导致更多的错误和协作失败。在本文中,我们提出了一个新的协作VR系统,以支持在VR环境中工作的两个遥控器,以远程控制未螺旋的地面车辆。我们使用比较的实验来评估协作VR系统,重点是在任务和操作总数上花费的时间。我们的结果表明,在两人组中,操作过程中的过程和操作过程中的认知负荷总数明显低于单人组。我们的研究阐明了设计VR系统的启示,以支持有关远程运营商工作流程的协作工作,而不是简单地优化设计成果。
translated by 谷歌翻译
联合学习(FL)使移动设备能够在保留本地数据的同时协作学习共享的预测模型。但是,实际上在移动设备上部署FL存在两个主要的研究挑战:(i)频繁的无线梯度更新v.s.频谱资源有限,以及(ii)培训期间渴望的FL通信和本地计算V.S.电池约束的移动设备。为了应对这些挑战,在本文中,我们提出了一种新型的多位空天空计算(MAIRCOMP)方法,用于FL中本地模型更新的频谱有效聚合,并进一步介绍用于移动的能源有效的FL设计设备。具体而言,高精度数字调制方案是在MAIRCOMP中设计和合并的,允许移动设备同时在多访问通道中同时在所选位置上传模型更新。此外,我们理论上分析了FL算法的收敛性。在FL收敛分析的指导下,我们制定了联合传输概率和局部计算控制优化,旨在最大程度地减少FL移动设备的总体能源消耗(即迭代局部计算 +多轮通信)。广泛的仿真结果表明,我们提出的方案在频谱利用率,能源效率和学习准确性方面优于现有计划。
translated by 谷歌翻译
随着LIDAR传感器在自动驾驶中的流行率,3D对象跟踪受到了越来越多的关注。在点云序列中,3D对象跟踪旨在预测给定对象模板中连续帧中对象的位置和方向。在变压器成功的驱动下,我们提出了点跟踪变压器(PTTR),它有效地预测了高质量的3D跟踪,借助变压器操作,以粗到1的方式导致。 PTTR由三个新型设计组成。 1)我们设计的关系意识采样代替随机抽样,以在亚采样过程中保留与给定模板相关的点。 2)我们提出了一个点关系变压器,以进行有效的特征聚合和模板和搜索区域之间的特征匹配。 3)基于粗糙跟踪结果,我们采用了一个新颖的预测改进模块,通过局部特征池获得最终的完善预测。此外,以捕获对象运动的鸟眼视图(BEV)的有利特性(BEV)的良好属性,我们进一步设计了一个名为PTTR ++的更高级的框架,该框架既包含了点的视图和BEV表示)产生高质量跟踪结果的影响。 PTTR ++实质上提高了PTTR顶部的跟踪性能,并具有低计算开销。多个数据集的广泛实验表明,我们提出的方法达到了卓越的3D跟踪准确性和效率。
translated by 谷歌翻译